高有效性簡介30篇: 監控與警示 (3)

DAY 3

高有效性 (High Availability) 初論 30 講系列第 3 篇

系統分析鐵人賽高有效性

食夢黑貘

2011-10-13 21:41:27

4187 瀏覽

分享至

**開始做 High Availbility 高有效性的第一個步驟當然是定義目標, 決定 SLA Service Level Aggreement, 但在之前就是要了解自己的系統, 也就是若是已經有系統正在營運的話, 建立現有完整系統的 Monitor 監控與 Alert 警示, 若是沒有的話, 就是針對可能系統的元件與流程建立監控點.

在網路管理中有一個很重要的事情, 就是事出必有因, Nothing Comes From Nothing, 當然我們不太可能去知道 Everything 所有事情, 但建立足夠的監控點對我們了解這些事情 Thing 是有很大的幫助的, 而高有效性不是只是看其 Availbility 而已, 雖然基本的 Watchdog, Heartbeat, Sanity Test 是有必要的, 只是這也只是必要而已, 重點是效率.

通常一個系統出問題的時候, 雖然在某一個觀點是全有全無, 但接下來的骨牌效應是擴散出去, 每一個環節或多或少都會受到影響, 有的很大, 有的很小, 甚至有些也會完全失效, 但也有些還正常運作, 而我們不太可能去在任何環節去裝監視器, 但我們可以從環節之間的相互關係看到效率降低的問題, 若我們不知道正常的效率是甚麼的話, 自然無法知道甚麼是正常.**
就操作型步驟的可行性如下:

**1. 定義所有元件

從元件之間找其細項 Refinement (子集合) 以及上層的集合
建立元件之間的關係
定義資訊流的方向與相依性
找到元件如何抓取數字
定時抓取資訊畫出圖表
設定 KPI 以及警示條件
收集歷史資料判斷未來**

當然監控與警示這塊感覺起來是只有網管與系統管理面, 事實上須要的層級是更高的, 由於是為了追求有效性高, 指的是使用者面, 最終的監控則是使用者的模擬, 以及之後的業積業務的 KPI, 只要這是對的, 通常就不會有大問題, 但不能只看這問題, 因為若要除錯的話, 須要更多的細項, 而身為有效性的分析者, 要去了解其環節的關係, 不能只是說系統沒問題就是沒問題, 要想的還包含管理面與企業面的關係.

只是要做到這些事所須要的技術與知識是相當多元的, 從網管到資料分析到企業智慧, 從資料庫到資料呈現, 甚至若要進一步的做到預警與預測則是須要更多的基本功, 然後找到對的工具去完成, 甚至最重要的是這監控要考慮兩個完全不同的狀況:
**1. 是否有足夠的元件都監控到

監控本身會不會造成太多的資源耗損**
事實上每建立一個 Agent 代理者與物件 Object 都要成本的, 這跟高有效性問題一樣, 若沒有出問題之前, 這些都不重要, 但出問題時才重要, 只是我們從來不希望出問題的情形下, 成本, 資源, 條件, 須求之間如何達成 Meet, 且每次出的問題都不太一樣, 就像是情境 Scenario 有千萬種, 雖然有時是相同的腳本, 但演出的物件都不盡相同.

所以有時最後也是見招拆招, 當出一次問題後, 我們會做更多的補足, 而讓這系統越來越好, 只是我們有沒有真的去重視, 有沒有去注意到, 去在意, 就是最大的智慧了.